談到 Data Fabric 就是 Athemaster 炬識的主場了!(上一篇談 Data Mesh 可讓我流了很多冷汗啊)
因為 Data Fabric 是更傾向保留資料倉儲、資料湖泊或是資料湖倉的。如同 Gartner 的觀點,Data Fabric 與 Data Mesh 都是企業在 Data Management Paradigm (資料管理範式) 上的選擇。
Data Fabric 的策略是維持現有的資料庫系統,以虛擬層集中管理,統合 Metadata。Data Mesh 的策略則是遷移資料以集中,然後再以 Domain 為單位分散資料、聯合維運。如果 Data Fabric 是邦聯制,Data Mesh 就是聯邦制。
我個人預測未來不會有哪一種範式獨贏的局面,大型企業中將同時存在 Data Fabric & Data Mesh 的架構,依據業務類型與商業競爭策略有不同的佔比。我猜高度監管的行業(例如金融)會有更高佔比的 Data Fabric,高度競爭的行業(例如電商)會有更高佔比的 Data Mesh。
我們可以粗略地分析 Data Fabric 具有以下特色:
Data Fabric 透過不斷識別並連接來自不同應用程序的資料,挖掘可用資料節點之間的業務邏輯,以洞見支援資料結構與應用系統商業邏輯的重新設計。換言之,Data Fabric 的驅動力是數位轉型的實現。
圖片來源:https://www.gartner.com/smarterwithgartner/data-fabric-architecture-is-key-to-modernizing-data-management-and-integration
Apache Airflow 是資料工程領域的工作流程管理平台,這個元件將資料管線開發模組化,讓新增的資料資產可以很快加入到供應鏈中。而且它是分散式系統,可以支持逐漸編織得越來越大的 Data Fabric!
我在兩年前就認識到 Data Fabric 這個詞彙,但是毫無感覺,因為企業客戶必須用產品混用客製化開發,才能達到所訴求的願景。
有了 Apache Iceberg 提供統合異質系統的 Metadata Management, 以及 Apache Airflow 集中管理所有的資料整合任務,讓 Data Fabric 能夠真正覆蓋企業所有資料儲存點。
看到 Cloudera 今年在 Private Cloud 產品線,先後發布支援 Apache Iceberg 與 Apache Airflow,我高興極了,Cloudera 對於企業資料湖泊如何再進化,總算提交了漂亮的答卷。